第1章はじめに（『BERTによる自然言語処理入門』） - nikkie-memos

第1章はじめに（『BERTによる自然言語処理入門』）

1-1 自然言語処理とは

1-1 自然言語処理とは（『自然言語処理の基本と技術』）と内容は重なる

自然言語の関わる問題をコンピュータで解くこと (p.2)

タスク

自然言語処理で扱う問題

基礎から応用まで幅広いタスクがある

多くのタスクは分類問題 (p.5)

1-2 機械学習とは

1-3 機械学習による自然言語処理

「ニューラル言語モデル」（第2章ニューラルネットワークを用いた自然言語処理でも）

文章や単語を「密なベクトル」に変換できる (p.5)

この密なベクトル＝分散表現

TF-IDFで文章を表現する場合はsparseなベクトルになるので、ここが違ってくる

sparseな扱いの例：Working With Text Data

思い出した：Word Embeddings: Encoding Lexical Semantics

密なベクトルは、なんらかの形で単語や文章の意味を反映していると考えられる

ニューラル言語モデルから得られる分散表現はデータの有用な特徴量として用いることができ、

有用性も確かめられている

ref: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

特徴抽出器としても使える

1-4 BERTとは

文脈を考慮した分散表現を生成できる (p.6)

事前学習

大量の文章のデータを用いて汎用的な言語のパターンを学習 (p.5)

ファインチューニング

「比較的少数のラベル付きデータを用いて、」「特定のタスクに特化するように学習」

事前学習済みのBERT + ラベル付きデータ（正解がわかっているデータ）